BIDS Projekt

Gruppe 3

Constanze Leichtweiß
Ivanna Marchesini
Christoph Kovacs
Enrico Wondra

Einführung

Sample Vorbereitung

RNA-Seq Pipeline

Wirkungsweise

flowchart TD
    RTK["Rezeptor-Tyrosinkinase (zB EGFR, VEGFR)"]
    RAS["RAS (GTPase)"]
    RAF["RAF-Kinase (inkl. BRAF)"]
    MEK["MEK1/2-Kinase"]
    ERK["ERK1/2-Kinase"]
    PRO["Zellproliferation und Überleben"]

    RTK --> RAS --> RAF --> MEK --> ERK --> PRO

    SORA["**Sorafenib** (RAF-Hemmer)"] -.-> RAF
    TRAM["**Trametinib** (MEK-Hemmer)"] -.-> MEK

    style SORA fill:yellow,stroke:orange,stroke-width:2px
    style TRAM fill:aqua,stroke:blue,stroke-width:2px

Analyse

Ziel:
Unterschiede in der Genexpression finden

  • Statistischer Test zum Finden von Unterschieden:
    1. Aufstellen einer Nullhypothese H0: kein Unterschied
    2. Gegenhypothese: Es gibt einen Unterschied
  • Negative Binominalverteilung zur Modellierung der Counts (Varianz besser abbildbar)
  • Fold Change = Wert Bedingung (Sora) / Wert Bedingung (DMSO)
  • Log Fold Change hat Vorteile beim Rechnen (Linear / Additiv)

Vorbereitung

  1. Erstellen einer Count-Matrix
  2. Annotation der Counts mit Zusatzbezeichnungen
  3. Filtern der Daten
# Filter: min. 2 Spalten mit je mehr als 10 Counts benötigt

keep <- rowSums(counts(dds) >= 10) >= 2
sum(keep) # Behalte 18,198 Records für die Analyse (31%)
sum(dim(count_matrix)[1]-sum(keep)) # Verwerfe 39,575 Records (69%)
  1. Erstellen des DeSeq2-Objekts für die weitere Analyse
  2. Transformieren und Normalisieren der Beobachtungen

Count-Daten

  • Kaum Unterschiede zu nicht-normalisierten Daten
  • Gute Datenqualität

Explorative Analyse

Strukturfindung

Optimale Anzahl Komponenten für PCA

  • Nur Top 500 Gene miteinbezogen
  • 2-3 Komponenten optimal

  • Klare Separierbarkeit entlang PC1
  • Stabile Kontrollgruppe
  • Sora deutlich von DMSO unterschieden
  • Tram deutlich heterogener (sollte untersucht werden)
  • Problem: Misst nur linearen Zusammenhang
  • PC3 erklärt nur knapp 7% der Gesamtvarianz
  • Keine bessere Separabilität

t-distributed Stochastic Neighbor Embedding

  • Misst lokalen nicht-linearen Zusammenhang
  • Deutliche Cluster der drei Treatments
  • Trametinib kohärenter als bei PCA

Uniform Manifold Approximation and Projection

  • Misst lokalen und globalen Zusammenhang
  • “Gradientenstruktur” DMSO → Tram → Sora
  • Problem: Zu wenige Samples

Differenzielle Expressions Analyse (DEG)

Signifikant regulierte Gene

  • Sorafenib ca. 3500 hoch- und runterregulierte Gene
  • Trametinib nur ca. 800
  • Beide Wirkstoffe haben eher repressive Effekte auf die Genexpression

Gemeinsam regulierte Gene

  • Sorafenib wirkt deutlich stärker auf die Genexpression
  • Trametinib zeigt eine deutlich schwächere Wirkung

  • Sorafenib wirkt deutlich stärker auf die Genexpression
  • Trametinib zeigt eine deutlich schwächere Wirkung

Signifikanz einzelner Gene

  • ↑↑ CDX2, BMF, PCK1, CDKN1B
    Zellzyklushemmung, Förderung von Apoptose
  • ↓↓↓ TNS4, MYC, FOSL1, SPRY4, IER3
    Hemmung von onkogenen Programmen

  • ↑↑ BMF, CYP1A, ASCL2
    Zellulärer Stress bzw. Schadensantworten
  • ↓↓↓ TNS4, IER3, FOSL1
    MAPK-assoziierte Proliferation, Stressantworten und zelluläre Bewegung

Gene Set Enrichment (GSE) and KEGG Pathway Analyse

Signalwege

Gemeinsame Signalwege

Gemeinsame Signalwege

Gene Ontology Analyse

Ideen

  • Vorhersage der Drug Response von Tumoren anhand integrierter genomischer Profile mittels Deep Neural Networks
    → Trainieren von Modellen
  • Führe die DEG-Analyse getrennt für Mutanten- und Wildtyp-Gruppen durch.
    → Gibt es Unterschiede?
  • Spielt DNA-Methylierung eine Rolle?

Referenzen

Code Repositories